For Prognostics and Health Management (PHM) of Lithium-ion (Li-ion) batteries, many models have been established to characterize their degradation process. The existing empirical or physical models can reveal important information regarding the degradation dynamics. However, there is no general and flexible methods to fuse the information represented by those models. Physics-Informed Neural Network (PINN) is an efficient tool to fuse empirical or physical dynamic models with data-driven models. To take full advantage of various information sources, we propose a model fusion scheme based on PINN. It is implemented by developing a semi-empirical semi-physical Partial Differential Equation (PDE) to model the degradation dynamics of Li-ion-batteries. When there is little prior knowledge about the dynamics, we leverage the data-driven Deep Hidden Physics Model (DeepHPM) to discover the underlying governing dynamic models. The uncovered dynamics information is then fused with that mined by the surrogate neural network in the PINN framework. Moreover, an uncertainty-based adaptive weighting method is employed to balance the multiple learning tasks when training the PINN. The proposed methods are verified on a public dataset of Li-ion Phosphate (LFP)/graphite batteries.
translated by 谷歌翻译
Feature reuse has been a key technique in light-weight convolutional neural networks (CNNs) design. Current methods usually utilize a concatenation operator to keep large channel numbers cheaply (thus large network capacity) by reusing feature maps from other layers. Although concatenation is parameters- and FLOPs-free, its computational cost on hardware devices is non-negligible. To address this, this paper provides a new perspective to realize feature reuse via structural re-parameterization technique. A novel hardware-efficient RepGhost module is proposed for implicit feature reuse via re-parameterization, instead of using concatenation operator. Based on the RepGhost module, we develop our efficient RepGhost bottleneck and RepGhostNet. Experiments on ImageNet and COCO benchmarks demonstrate that the proposed RepGhostNet is much more effective and efficient than GhostNet and MobileNetV3 on mobile devices. Specially, our RepGhostNet surpasses GhostNet 0.5x by 2.5% Top-1 accuracy on ImageNet dataset with less parameters and comparable latency on an ARM-based mobile phone.
translated by 谷歌翻译
Speech representation learning has improved both speech understanding and speech synthesis tasks for single language. However, its ability in cross-lingual scenarios has not been explored. In this paper, we extend the pretraining method for cross-lingual multi-speaker speech synthesis tasks, including cross-lingual multi-speaker voice cloning and cross-lingual multi-speaker speech editing. We propose a speech-text joint pretraining framework, where we randomly mask the spectrogram and the phonemes given a speech example and its transcription. By learning to reconstruct the masked parts of the input in different languages, our model shows great improvements over speaker-embedding-based multi-speaker TTS methods. Moreover, our framework is end-to-end for both the training and the inference without any finetuning effort. In cross-lingual multi-speaker voice cloning and cross-lingual multi-speaker speech editing tasks, our experiments show that our model outperforms speaker-embedding-based multi-speaker TTS methods. The code and model are publicly available at PaddleSpeech.
translated by 谷歌翻译
神经辐射场(NERF)在代表具有高分辨率细节和有效记忆的复杂3D场景方面取得了巨大成功。然而,当前基于NERF的姿势估计量没有初始姿势预测,并且在优化过程中易于局部优势。在本文中,我们介绍了纬度:全球定位,具有截短的动态低通滤波器,该过滤器引入了城市规模的NERF中的两阶段定位机制。在识别阶段,我们通过训练有素的NERFS生成的图像来训练回归器,该图像为全球本地化提供了初始值。在姿势优化阶段,我们通过直接优化切线平面上的姿势来最大程度地减少观察到的图像之间的残差和渲染图像。为了避免收敛到局部最优,我们引入了一个截短的动态低通滤波器(TDLF),以进行粗到细小的姿势注册。我们在合成和现实世界中评估了我们的方法,并显示了其在大规模城市场景中高精度导航的潜在应用。代码和数据将在https://github.com/jike5/latitude上公开获取。
translated by 谷歌翻译
实时音乐伴奏的生成在音乐行业(例如音乐教育和现场表演)中具有广泛的应用。但是,自动实时音乐伴奏的产生仍在研究中,并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中,我们提出了Song Driver,这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言,Songdriver将一个伴奏的生成任务分为两个阶段:1)安排阶段,其中变压器模型首先安排了和弦,以实时进行输入旋律,并在下一阶段加速了和弦,而不是播放它们。 2)预测阶段,其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略,歌手直接生成即将到来的旋律的伴奏,从而达到了零逻辑延迟。此外,在预测时间步的和弦时,歌手是指第一阶段的缓存和弦,而不是其先前的预测,这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制,因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点,我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中,我们在一些开源数据集上训练歌手,以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明,歌手在客观和主观指标上均优于现有的SOTA(最先进)模型,同时大大降低了物理潜伏期。
translated by 谷歌翻译
旋转速度是要测量的重要指标之一,用于校准制造中的电动机,在汽车维修期间监视发动机,电气设备上的故障等。或在现实世界应用程序方案中使用不便。在本文中,我们提出了通过在移动设备上有效的动态视觉传感的基于事件的转速表。通过将动态视觉传感器作为一种新的传感模式引入动态视觉传感器,将EV-TACH设计为高保真和方便的转速表,以在各种现实世界中精确地捕获高速旋转。通过设计一系列的信号处理算法定制,用于移动设备上的动态视觉感测,EV-TACH能够从旋转目标上的动态视觉传感产生的事件流中准确提取旋转速度。根据我们的广泛评估,EV-TACH的相对平均绝对误差(RMAE)高达0.03%,在固定测量模式下与最先进的激光转速计相当。此外,EV-TACH对于用户手的微妙运动具有鲁棒性,因此可以用作手持设备,在该设备中,激光转速计无法产生合理的结果。
translated by 谷歌翻译
手指静脉识别是一种新兴的生物识别识别技术。与人体表面上的其他生物特征不同,手指的静脉血管组织被埋在皮肤深处。由于这种优势,手指静脉识别是高度稳定和私人的。它们几乎不可能被外部条件偷走且难以干预。与基于传统机器学习的手指静脉识别方法不同,人工神经网络技术,尤其是深度学习,它不依赖功能工程并具有出色的性能。为了总结基于人工神经网络的手指静脉识别的发展,本文收集了149篇相关论文。首先,我们介绍了手指静脉识别的背景和这项调查的动机。然后,引入了人工神经网络的发展历史和手指静脉识别任务上的代表网络。然后描述在手指静脉识别中广泛使用的公共数据集。之后,我们分别基于经典神经网络和深层神经网络总结了相关的手指静脉识别任务。最后,讨论了手指静脉识别的挑战和潜在发展方向。据我们所知,本文是第一次综合调查,重点是基于人工神经网络的指静脉识别。
translated by 谷歌翻译
在许多应用中,机器学习(ML)模型需要保持一些不变性质量,例如旋转,大小,强度和背景不变性。与多种类型的方差不同,背景场景的变体不能轻易排序,这使得很难分析有关模型的稳健性和偏见。在这项工作中,我们提出了一种技术解决方案,可根据其语义近距离订购背景场景,该场景与包含正在测试的前景对象的目标图像。我们利用对象识别的结果作为每个图像的语义描述,并构建一个本体,用于使用关联分析在不同对象之间存储有关关系的知识。该本体学启用(i)有效而有意义的搜索对目标图像的不同语义距离的背景场景,(ii)对采样背景场景的分布和稀疏性的定量控制,以及(iii)使用不变性测试的视觉表示的质量保证结果(称为方差矩阵)。在本文中,我们还报告了ML4ML评估器的培训,以自动评估ML模型的不变性质量。
translated by 谷歌翻译
在本文中,我们提出了与IEEE计算机协会在CVPR 2022上同时与IEEE计算机协会研讨会同时举行的多手术检测挑战。我们的多手术检测挑战旨在检测自动图像操作,包括但不限于图像编辑,图像合成,图像合成,图像,图像,图像,图像合成,图像,图像编辑一代,图像Photoshop等。我们的挑战吸引了来自世界各地的674支团队,约有2000个有效的结果提交数量。我们邀请了前十支球队为挑战提供解决方案,其中三支球队在大结局中获得了奖项。在本文中,我们介绍了前三名团队的解决方案,以增强图像伪造检测领域的研究工作。
translated by 谷歌翻译
在过去的几十年中,出现了一种趋势,指出在可移动,可编程和可转换机制中利用结构不稳定性。受钢制发夹的启发,我们将面板组件与可靠的结构相结合,并使用半刚性塑料板建造合规的拍打机构,并将其安装在束缚的气动软机器人鱼和无螺旋螺旋式的电动机驱动器上,以展示它的前所未有的优势。设计规则是根据理论和验证提出的。观察到与参考相比,气动鱼的游泳速度提高了两倍,对Untether Fish的进一步研究表明,对于不固定的兼容的游泳运动员,可损坏的速度为2.03 BL/S(43.6 cm/s),优于先前报告的最快的,其幅度为194%。这项工作可能预示着下一代符合下一代机器人技术的结构革命。
translated by 谷歌翻译